iT邦幫忙

2023 iThome 鐵人賽

DAY 13
0

Data Lakehouse(資料湖倉)這是 2023 終於紅到台灣的新詞彙。
Gartner:「資料湖倉是整合資料倉儲與資料湖泊為一體(湖倉一體),將運算配置與資料標準化,以支持企業 AI, BI, ML 與 Data Engineering (資料工程) 等任務需求。」全文可以參照下圖來源。
https://ithelp.ithome.com.tw/upload/images/20230916/20161790xTQUF10TjE.png
製圖者:Gartner
圖片來源:https://solutionsreview.com/data-management/gartner-da-summit-2023-the-gartner-view-of-the-data-lake-lakehouse/

Hadoop 已死?不,是 Data Lake 資料湖泊已死。

Hadoop 還活得好好的,請看開源社區現況:https://github.com/apache/hadoop

兩年前開始 Databricks, Snowflake 領頭, 接著是 IBM 與 Gartner, 最後連 Hadoop 掌門人 Cloudera 正聯手埋葬資料湖泊。看看上面 Gartner 今年授權的文章論點就知道,風向已定。

好傷心啊~我很喜歡「資料湖泊」這個有詩意的名字。雖然 Lakehouse 湖景房也有詩意,但是大家約定俗成的翻譯可不太浪漫——資料湖倉。

Data Hub, Data Warehouse, Data Lake, Data Lakehouse, Data Platform?

搭配時代與應用場景,有很多不同的資料平台架構思維,Data Platform 是最上位概念、最籠統,包含傳統單體資料庫系統:

  1. Databases
  2. Data Hub
  3. Data Warehouse
  4. Data Lake
  5. Data Lakehouse

Data Hub vs. Data Warehouse vs. Data Lake vs. Data Lakehouse

/ OLAP Database Data Hub Data Warehouse Data Lake Data Lakehouse
支援處理非結構化資料與串流
多資料源
整合多資料源
資料分析作業
異質系統 Metadata 管理功能 無 [註]

[註] Cloudera 在 2023.09 的 CDP 7.1.9 將 Apache Iceberg 納入,賦予產品異質系統 Metadata 管理功能,正式宣佈轉向為 Data Lakehouse 資料湖倉。

湖倉之心,資料管理利器:Apache Iceberg

https://ithelp.ithome.com.tw/upload/images/20230916/201617908mdEmKlBvF.png
圖片來源:Cloudera
「異質系統Metadata 管理功能」可以說是資料湖倉的大殺器,也是 Cloudera 今年的重大里程碑。我個人認為,Cloudera 的 CDP 今年納入 Apache Airflow 與 Apache Iceberg,充分表達 Cloudera 在開源陣營的企業級巨量資料方案,積極保衛大哥地位的決心,我也覺得這步棋值得讚許。這一步之後,Cloudera 將可能成為資料類開源元件生態系的牧羊人。

Apache Iceberg 是值得專文介紹的。
但是本系列不介紹特定方案,有機會再說。用一張神圖讓各位了解它的角色:(會動的版本請造訪圖片來源網站)
https://ithelp.ithome.com.tw/upload/images/20230916/20161790d9dQ5wfTz8.png

圖片來源:https://www.starburst.io/blog/introduction-to-apache-iceberg-in-trino/?fbclid=IwAR37s5qPOJ7btd8-osJ06SMxHTADtoYnNWN5C4RKbUbo4LZx547QU_tDVuI


上一篇
Data Pipeline 資料管線(vs. ETL/ETL Pipeline)
下一篇
淺談 Data Mesh & Microservices
系列文
吵什麼 AI 煉金術?!你家有礦嗎?(資料領域必知的 30 個詞彙)30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

1 則留言

0
MatthewWangUS
iT邦新手 3 級 ‧ 2023-09-19 11:57:43

不確定您的 OLAP Database 在資料分析作業上寫『無』的意思是什麼。OLAP上的A(analytical)不就是分析的意思。再者 多資料源 無,個人也沒了解到您的意思。OLAP的資料有沒有多資料源不在於本身,而在於ETL時是否有整合不同的資料來源。

sam989798 iT邦新手 4 級 ‧ 2024-07-01 15:56:18 檢舉

打錯吧! 是OLTP
不然把資料倉儲跟OLAP分開寫也很怪

我要留言

立即登入留言